随着诸如播客的长形话语内容的数量,许多平台希望从完整内容中提取短,有意义的和逻辑上相干段。这些段可以通过用户消耗以在潜水前进行采样内容,以及平台使用以推广和推荐内容。然而,很少发布的工作主要集中在话语内容的分割中,其中自动语音识别(ASR)服务生成的成绩单中的错误(噪声)构成了许多挑战。在这里,我们构建了400多个播客剧集的完整转录的新型数据集,其中我们标记了每个集中的介绍的位置。这些介绍包含有关剧集主题,主机和客人的信息,提供了剧集内容的有价值的摘要,因为它由作者创建。我们进一步使用Word替换增强了我们的数据集以增加可用培训数据的数量。我们根据预先训练的BERT和不同的增强策略训练三种变压器模型,与静态嵌入模型相比,实现了明显更好的性能,表明可以从嘈杂,松散组织的演讲中捕获广义的大规模结构信息数据。通过对模型的内部架构的分析进一步证明了这一点。我们的方法和数据集可用于促进未来的工作基于结构的出言内容的分割。
translated by 谷歌翻译